#adicción a recompensas

La codicia se aprende: incentivos visibles y hackeo de recompensas

La codicia se aprende: los incentivos visibles pueden hacer que la IA sacrifique su tarea por recompensas. Un peligro para la seguridad y alineación.